近端策略优化 上一篇文章学习了策略梯度,它是同策略,采样学习过一次的数据在执行梯度上升之后就不能再用了,需要重新采样,所以它在采样上花费了大量的时间。而近端策略优化解决了这个问题,它是策略梯度的变种,也是异策略,它用另外一个策略和演员同环境交互,让原来的策略去学习另外一个策略,这样可以多次使用另外一个策略采样到的数据,可以多次执行梯度上升。 关键词 同策略和异策略:如果要学习的智能体和与环境交 ...